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摘要 : [目的 ] 本 文 则 在 提高 专利 技术 功效 自动 化 提取 的 准确 度 。[ 方 法 ] 使 用 ChatGPT 作为 教 
币 模型 (Teacher-model) ，ChatGLM3 作为 学 生 模 型 (Student-modeD) ， 通 过 知识 蒸馏 ， 将 
hatGPT 生成 的 训练 数据 微调 ChatGLM3， 得 到 多 个 技术 词 抽取 模型 和 功效 词 抽取 模型 。 采 
多 个 技术 词 抽 取 模 型 分 别 从 专利 的 摘要 、 第 一 权利 要 求 和 技术 功效 语 段 中 抽取 技术 词 ，3 
采用 功效 词 抽取 模型 从 技术 功效 语 段 中 抽取 功效 词 。[ 结 果 ] 微 调 后 的 多 个 技术 词 抽取 模型 和 
功效 词 抽 取 模 型 相 较 于 ChatGPT， 在 抽取 技术 词 和 功效 词 时 呈现 准确 率 高 、 召 回 率 低 的 特 
点 ， 第 一 权利 要 求 的 ChatGLM3 微调 模型 的 准确 率 和 Fl 值 最 高 ， 分 别 为 0.734 和 0.724。 功 
效 词 抽取 模型 抽取 的 功效 词 的 准确 率 为 0.649， 大 于 商业 工具 标注 功效 词 的 准确 率 0.53。[ 局 
限 ] 本 研究 的 技术 领域 和 专利 语言 单一 ， 验 证 数据 量 偏 小 ， 数 据 清 洗 规则 还 有 待 于 继续 优化 。 
[结论 ] 本 研究 方案 通过 知识 蒸馏 操作 ， 提 升 了 大 语言 模型 自动 化 抽取 技术 功效 的 准确 性 。 同 
时 ， 本 研究 能 够 支持 从 专利 文本 中 挖掘 前 沿 创新 技术 、 热 点 技术 ， 支 撑 更 高 质量 的 智能 化 专 

利 分 析 。 
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Abstract: [Objective] This paper aims to improve the accuracy of automatic extraction of key 
technical words and corresponding function words from patent.[Methods] ChatGPT was used as 
the Teacher-model, and ChatGLM3 was used as the Student-model. Through knowledge 
distillation method, the training data generated by ChatGPT was used to fine-tune ChatGLM3, and 
multiple technical word extraction models and a function word extraction model were obtained. 


The technical words are extracted from the abstract, the first claim and the technical function 


paragraph, respectively, by using multiple technical word extraction models, and the function 
words are extracted from the technical function paragraph by using the function words extraction 
model.[Results] Compared with ChatGPT, the fine-tuned multiple technical word extraction 
models and function word extraction model show higher accuracy and lower recall rate, when 
extracting technical words and function words. The ChatGLM3 fine-tuning model of the first 
claim has the highest accuracy and Fl values of 0.734 and 0.724 respectively. Moreover, The 
accuracy of the function words extracted by the function word extraction model is 0.649, which is 
higher than the accuracy of the function words labeled by the commercial tool, which is is 
0.53.[Limitations] The technical field and patent language of this research are single, the 
amount of patent verification data is small, and the data cleaning rules expect to be further 
optimized. [Conclusions] This research Scheme improves the efficiency accuracy of automatic 
extraction of large language model through knowledge distillation operation. At the Same time, 
this study can Support the mining of cutting-edge innovative and hot technologies from Patent 
texts, and Support higher quality intelligent patent analysis. 
Keywords: Technical function word extraction; Knowledge distillation; Fine-tuning model; 
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1 引言 


专利 是 技术 创新 成 果 的 重要 载体 ， 也 是 技术 情报 获取 的 重要 信息 来 源 ， 全 球 
海量 专利 数据 给 技术 分 析 带 来 巨大 挑战 。 专 利 作 为 非 结 构 化 文本 , 在 描述 方式 或 
术语 上 并 不 统一 ， 导 致 难以 使 用 简单 的 规则 抽取 其 中 的 具备 创造 性 的 核心 技术 ， 
当前 人 工 参 与 标注 的 抽取 方式 ， 己 无 法 满足 对 大 规模 专利 数据 集 快速 分 析 的 需 
要 。 技术 功效 矩阵 或 称 为 技术 功能 和 矩阵， 是 一 种 典型 的 专利 分 析 方 法 ， 用 于 发 现 
高 价值 技术 、 分 析 技 术 热 点 和 空白 点 、 定 位 特定 领域 的 技术 差距 等 。 专利 技术 功 
效 矩 阵 对 于 专利 分 析 很 有 帮助 ， 但 创建 起 来 比较 困难 。 通 常 ， 面 向 中 文 专利 的 实 
体 提 取 方 法 主要 有 关键 词 抽取 、 实 体 关 系 抽取 、 技 术 功 效 主题 提取 、 实 体 消 歧 、 
关键 短语 、 技 术 主 题 、 知 识 图 谱 实体 抽取 等 。 就 技术 功效 而 言 ， 主 要 有 基于 领域 
知识 库 或 词典 出、 文本 分 词 中 、 基 于 TRIZ 理论 Bl、 基于 SAO (Subject - Action - 
Object) 结构 由 、 句 法 分 析 申 、TF-IDF 算法 外 、 基 于 预 训练 模型 BARTM 等 ， 以 上 
研究 多 是 借助 词性 标注 或 建立 词典 等 半自动 化 抽取 方式 。 随 着 大 语言 模型 的 发 
展 ，ChatGPT 能 够 理解 和 学 习 人 类 语言 并 进行 对 话 , 推动 了 人 工 智 能 生成 技术 的 
应 用 外， 利用 大 语言 模型 的 上 下 文理 解 能 力 ， 自 动 生 成 需要 的 技术 功效 内 容 成 为 
可 能 外。 

本 文 基于 大 语言 模型 ， 通 过 知识 蒸馏 操作 , 采用 ChatGPT 生成 的 技术 词 和 功 
效 词 作为 训练 语 料 ， 对 ChatGLM3 模型 进行 微调 ， 确 定 技术 词 抽取 模型 和 功效 
词 抽取 模型 , 进一步 对 多 种 技术 词 抽 取 方 式 进行 系统 评 佑 ， 且 所 抽取 技术 词 与 商 
业 工 具 功 效 词 的 准确 率 比 较 , 确定 较为 准确 的 技术 词 和 功效 词 自动 抽取 方式 。 由 
此 提高 专利 技术 功效 自动 化 抽取 的 准确 度 ， 以 快速 提取 专利 核心 信息 , 在 不 需要 
通读 专利 全 文 的 情况 下 ,掌握 专利 的 技术 和 功效 要 点 。 实 现 从 专利 文本 中 自动 抽 
取 解 决 特定 技术 问题 的 核心 技术 方案 的 技术 词 和 功效 词 ， 辅 助 构建 技术 功效 实 
体 ， 准 确 反 映 专利 技术 发 展 脉络 和 分 布 趋势 。 


2 相关 研究 


2.1 文本 挖掘 技术 在 技术 功效 构建 的 应 用 现状 


随 着 计算 机 技术 的 发 展 ， 应 用 于 智能 化 抽取 专利 技术 功效 的 技术 也 在 不 断 更 
和 迭 ,， 以 寻求 更 加 贴近 人 工 标 注 方式 且 更 加 准确 的 构建 方法 。2012 年 , 陈 颗 等 人 H0 
建立 评价 单词 或 短语 表示 技术 功效 特征 效果 的 特征 度 指标 , 过 滤 掉 数据 集中 特征 
度 低 的 词 或 短语 ， 抽 取 特 征 词 或 技术 词 。 陈 晨 等 人 00 基 于 人 工整 合 后 的 德 温 特 
专利 数据 的 摘要 , 使 用 将 文本 挖掘 与 分 布 式 计算 相 结 合 的 方法 , 构造 技术 功效 与 
技术 应 用 和 矩阵 图 。2015 年 ， HE 等 人 tI 应 用 语义 角色 标签 创建 技术 从 优势 句 中 提 
取 专 利 技术 和 效果 短语 。 惟 东升 等 人 03 使 专利 摘要 构建 数据 仓库 ， 利 用 微软 数 
据 分 析 服 务 ， 实 现 技术 功效 图 的 构建 与 多 维 分 析 。2016 年 ， 胡 菊香 等 人 0 定位 
专利 摘要 中 包含 技术 功效 短语 的 单 句 , 结合 依存 关系 规则 、 短 语 规则 计算 共 现 频 
率 较 高 的 词 ， 并 提取 技术 功效 词 。 

2017 年 ，Huang 等 人 所 利用 斯 坦 福 解析 器 和 关联 规则 从 专利 文本 的 独立 权利 
要 求 中 提取 和 分 离 有 关 技 术 和 功能 的 信息 ， 构 建 技术 功效 矩阵 。 段 庆 锋 等 人 03 
研究 了 基于 SAO (SubjectrAction-Object) 结构 的 技术 主题 、 功 效 主题 分 析 方 法 ， 
构建 摘要 的 SAO 技术 三 元 组 ， 抽 取 技 术 与 功效 的 词语 ， 经 过 凝练 后 构建 专利 算 
阵 。2018 年 ，Amy 等 人 09 构 建 7 个 技术 指标 和 7 个 功能 指标 ， 并 将 挖掘 的 专利 
关键 术语 进行 分 组 。Deng 等 人 07 提 出 一 种 多 特征 融合 评分 算法 PaEffExtr， 利 用 
专利 效果 陈述 的 分 布 (效果 语 句 绝 大 部 分 出 现在 摘要 的 末尾 〉 和 形态 特征 (效果 
语句 中 往往 有 特定 的 线索 词 ) ， 构 造 一 条 线索 词 库 ， 并 使 用 打分 方法 从 中 文 专利 
摘要 中 自动 提取 效果 语句 。 

2020 年 ， 王 狗 洁 等 人 08 从 构成 要 素 、 技 术 工 艺 与 功能 效果 三 个 维度 ， 抽 取 
技术 词 并 统计 词 频 ，Yang 等 人 19 对 工艺 专利 技术 词 提 取 ， 计 算 候 选 词 的 正 值 和 
IDF 值 ， 再 从 中 选择 技术 词 。2021 年 ， 李 剑 飞 等 人 多 抽取 专利 说 明 书 中 发 明 内 
容 部 分 的 技术 方案 及 功效 信息 , 通过 相似 度 计 算 并 辅 以 阔 值 筛选 建立 双方 的 技术 
关联 关系 ， 最 后 构建 技术 -功效 图 。 向 妹 聊 等 人 的 从 权利 要 求 和 说 明 书 发 明 内 容 
部 分 抽取 核心 技术 ， 从 说 明 书 背景 技术 的 最 后 一 段 、 发 明 内 容 的 第 一 段 或 具体 说 
明 倒 数 后 几 段 抽取 功效 。2022 年 ，Shi 等 人 号 采 从 中 文摘 要 中 综合 使 用 语义 依存 
解析 器 和 预 训练 的 语言 模型 来 提取 功能 和 技术 短语 。 Korobkin 等 人 四 通过 句法 分 
析 的 方式 从 第 一 权利 要 求 中 抽取 多 个 元 组 ， 将 专利 的 功能 定义 为 “对 象 -条 件 - 动 
作 ”， 并 实现 非 结 构 化 信息 的 抽取 。WANWOOK 等 人 P31， 提 出 一 种 半自动 化 方 
式 ， 使 用 自然 语言 处 理 提 取 专 利 的 关键 技术 信息 ， 然 后 将 这 些 信 息 以 和 矩阵 形式 可 
视 化 形式 ， 该 研究 仅 使 用 第 一 个 权利 要 求 ， 因 为 它 通常 表达 最 重要 和 最 详细 的 信 
息 ， 并 包含 总 体 技 术 描 述 ， 用 户 可 以 确认 特定 专利 是 否 包 含 所 需 的 技术 信息 ， 并 
可 以 检测 该 信息 内 的 关系 。 

于 专利 文本 信息 而 言 ， 并 非 出 现 频率 高 就 一 定 是 核心 技术 或 功效 词 ， 计 算 词 
频 的 方式 所 抓 取 的 技术 词 相 较 于 专利 真正 的 核心 技术 ， 其 准确 性 有 待 进一步 验 
证 。 然 而 ，SAO 结构 的 抽取 分 析 及 主题 词 的 凝练 ， 需 要 借助 专家 经 验 ， 过 程 中 
设置 技术 指标 和 功能 指标 依然 离 不 开 人 工 判断 。 也 有 一 些 研究 的 侧重 点 在 于 对 技 
术 功 效 矩 阵 做 评价 指标 ， 将 技术 和 功效 两 个 维度 的 内 容 依靠 人 工 解 读 鸣 ， 将 数 
据 归 入 “技术 -功效 ”矩阵 框架 中 ， 并 没有 解决 技术 功效 算 阵 构建 的 耗费 大 量 人 力 
的 痛 点 问题 。 

从 专利 文本 记载 内 容 来 看 ， 专 利文 本 的 说 明 书 全 文中 包括 大 量 信息 ， 如 背 
技术 部 分 记载 技术 现状 和 技术 问题 的 描述 , 实施 方式 部 分 记载 技术 方案 具体 内 


展开 和 扩展 描述 等 , 为 了 避免 从 专利 中 抽取 信息 的 杂乱 ,很 少 有 研究 从 全 文盲 目 
抽取 技术 或 功效 。 从 已 公开 研究 来 看 , 通常 专利 的 技术 词 主要 从 摘要 或 第 一 权利 
要 求 中 抽取 ， 功 效 词 主要 从 摘要 、 说 明 书 背景 技术 的 最 后 一 段 、 发 明 内 容 的 第 一 
段 或 倒数 后 几 段 中 抽取 。 据 《专利 审查 指南 》 的 要 求 ， 摘 要 的 字数 限制 在 300 
以 内 ， 其 通常 包括 主题 名 称 、 第 一 权利 要 求 的 部 分 内 容 ， 有 些 摘要 还 包括 部 分 功 
效 内 容 。 而 摘要 限于 字数 要 求 , 通常 其 记载 的 技术 和 功效 内 容 上 相 比 于 第 一 权利 
要 求 和 其 说 明 书 中 的 功效 描述 都 不 完整 ,专利 的 第 一 权利 要 求 包括 解决 技术 问题 
的 完整 技术 方案 ， 发 明 /实用 新 型 内 容 的 倒数 后 几 段 包括 对 应 于 第 一 权利 要 求 的 
技术 功效 的 较为 完整 的 描述 。 前 述 研 究 涉及 从 专利 的 不 同 内 容 中 抽取 技术 信息 ， 
但 是 很 少 用 同一 个 建 模 方法 对 专利 不 同 内 容 中 抽取 技术 词 的 效果 做 比较 , 以 在 同 
一 标准 下 推荐 最 为 准确 的 抽取 方式 。 虽 然 一 些 商业 化 工具 ， 如 Incopat 专利 检索 
数据 库 ， 已 标注 并 能 导出 每 条 专利 的 功效 词 ， 但 其 准确 性 还 待 进一步 验证 。 专 利 
文本 中 记载 的 技术 信息 量 大 且 语 言 结构 化 较 差 ， 其 中 的 定义 、 实 体 、 概 念 、 描 述 
规则 等 都 不 统一 ， 有 些 技术 和 功效 抽取 方法 难以 确定 信息 的 边界 、 类 型 等 ,也 为 
专利 技术 功效 的 抽取 提出 了 新 的 挑战 。 


2.2 ”大 模型 技术 在 技术 功效 构建 的 应 用 现状 


2018 年 谷歌 团队 开创 性 地 提出 了 预 训 练 语言 模型 BERT, 之 后 该 模型 不 断 改 
进 , 也 同时 激发 了 大 量 的 以 预 训练 模型 为 基础 的 自然 语言 处 理 的 应 用 研究 。2023 
年 ， 刘 春江 等 人 5 基于 BERT-BiGRU-CRF 抽取 技术 功能 和 技术 效果 的 三 元 组 ， 
在 不 同 层级 与 粒度 下 自动 构建 专利 技术 功效 矩阵 。2022 年 11 月 ，ChatGPT 的 问 
世 展 示 了 大 预言 模型 的 无 线 潜力 , 该 模型 能 够 理解 需求 , 结合 上 下 文 提 供 合 适 的 
答案 ， 也 迅速 被 应 用 到 越 来 越 多 的 场景 中 。 白 如 江 等 人 中 使 用 ChatGPT+Prompt 
的 方法 实现 专利 技术 词 、 功 效 词 以 及 技术 功效 二 元 组 的 识别 、 提 取 和 生成 。 但 是 ， 
其 prompt 流程 中 示例 的 技术 词 主 要 来 自 专 利 标题 内 容 ， 技 术 词 的 抽取 规则 比较 
模糊 ， 虽 然 每 个 技术 领域 检索 专利 5000 件 ， 但 在 每 个 领域 仅仅 人 工 随机 标注 50 
条 数据 (其 中 包括 30 条 中 文 专利 、10 条 英文 专利 ，10 条 日 文 专利 ) ， 标 注 数 据 
量 和 总 数据 量 差距 很 大 ， 模 型 效果 有 待 验 证 。 

中 文 专利 中 包含 大 量 的 技术 信息 且 描 述 规则 不 统一 ， 中 文 语义 多 样 ， 借 助 大 
模型 进行 技术 词 和 功效 词 抽取 时 难度 进一步 加 大 。2023 年 10 月 27 日 ， 中 国 计 
算 机 大 会 CNCC2023 上 ， 智 谱 AI 发 布 了 自 研 第 三 代 对 话 大 模型 ChatGLM3C9， 
首次 加 入 了 代码 识别 模块 Code Interpreter， 在 多 模 态 理解 、 代 码 生 成 、 网 络 搜索 
以 及 语义 和 逻辑 推理 能 力 都 得 到 了 显著 增强 。 由 此 ， 本 研究 结合 知识 蒸馏 
(knowledge distillation ) 方式 PC1， 以 ChatGPT 作为 教师 模型 ，ChatGLM3 作为 
学 生 模 型 ， 使 用 ChatGPT 分 别 基 于 专利 的 摘要 ， 第 一 权利 要 求 ， 发 明 /实用 新 型 
内 容 部 分 最 后 几 段 的 技术 功效 段落 生成 技术 词 , 并 将 技术 词 经 过 清洗 后 得 到 技术 
词 抽取 训练 数据 。 那 么 ， 从 专利 的 三 部 分 内 容 中 分 别 得 到 的 训练 数据 微调 
ChatGLM3 模型 ， 得 到 抽取 技术 词 的 微调 模型 三 个 ， 后 续 经 过 准确 率 、 召 回 率 和 
Fl 值 对 比 后 ， 确 定 准 确 率 最 高 的 微调 模型 。 使 用 ChatGPT 从 技术 功效 段落 生成 
的 功效 词 ， 经 过 清洗 后 作为 功效 词 抽取 训练 数据 ， 对 ChatGLM3 模型 进行 微调 
得 到 抽取 功效 词 的 模型 。 摘 要 中 所 记载 的 功效 内 容 通常 包含 在 技术 功效 段落 中 ， 
这 里 不 再 对 比 摘 要 和 技术 功效 段落 在 抽取 功效 词 上 的 效果 差异 。 本 文选 择 将 功效 
词 抽取 结果 与 mcopat 数据 库 导 出 功效 词 进行 比较 ， 评 估 抽 取 结 果 的 准确 率 。 对 


ChatGLM3 微调 后 的 模型 进行 实证 , 综合 评估 抽取 效果 后 确定 抽取 技术 功效 更 为 
准确 的 方式 。 
3 研究 设计 


3.1 研究 框架 


本 研究 不 需要 构建 领域 词典 ， 从 人 工 智 能 驱动 自然 语言 处 理 的 角度 ， 采 用 
ChatGPT 和 ChatGLM3 两 种 大 语言 模型 ， 以 知识 蒸馏 的 方式 ， 构 建 技术 功效 抽 
取 方 法 ， 提 高 抽取 准确 性 。 本 研究 的 研究 框架 见 下 图 1。 研 究 思路 主要 分 为 如 下 
三 个 部 分 :训练 数据 处 理 、 模 型 微调 、 抽 取 效 果实 证 。 使 用 ChatGPT 作为 教师 
模型 (Teacher-model) ， 将 专利 训练 数据 的 第 一 权利 要 求 、 摘 要 、 技 术 功 效 句 作 
为 输入 ， 为 技术 词 生成 定制 prompt， 通 过 ChatGPT 分 别 从 第 一 权利 要 求 、 摘 要 、 
技术 功效 句 中 生成 技术 词 , 并 使 用 设置 的 技术 词 清洗 规则 对 生成 的 技术 词 进行 优 
化 得 到 技术 词 数据 1、 技 术 词 数据 2 和 技术 词 数据 3。 其 中 ， 技 术 功 效 句 指 的 是 
发 明 /实用 新 型 内 容 的 倒数 后 几 段 ， 对 第 一 权利 要 求 的 功效 进行 描述 的 段落 。 为 
功效 词 生成 定制 prompt， 通 过 ChatGPT 从 技术 功效 句 中 生成 功效 词 ， 并 设置 功 
效 词 清洗 规则 对 生成 的 功效 词 进行 优化 得 到 功效 词 数据 。 将 技术 词 数据 1、 技 术 
词 数据 2、 技 术 词 数据 3 和 功效 词 数 据 作为 训练 数据 。ChatGLM3 作为 学 生 模型 
(Student-model)， 通 过 知识 燕 馏 操作 中， 即将 ChatGPT 生成 的 训练 数据 用 于 
ChatGLM3 模型 的 学 习 ， 基 于 P-Tuning v2 微调 方法 ， 构 建 ChatGLM3 的 模型 微 
调 。 从 第 一 权利 要 求生 成 的 技术 词 数据 1， 对 ChatGLM3 模型 微调 后 得 到 技术 词 
抽取 模型 1， 从 摘要 生成 的 技术 词 数 据 2， 对 ChatGLM3 模型 微调 后 得 到 技术 词 
抽取 模型 2， 从 技术 功效 句 生成 的 技术 词 数据 3， 对 ChatGLM3 模型 微调 后 得 到 
技术 词 抽 取 模 型 3。 基 于 功效 词 数 据 ， 对 ChatGLM3 模型 微调 后 得 到 功效 词 抽取 
模型 。 
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技术 词 数据 和 功效 词 数 据 自动 生成 
人 工 标注 技术 功效 对 比 数据 


Figl. Research framework of technical and functional word extraction based on 


ChatGPT+ChatGLM3 


使 用 专利 验证 数据 集 ， 对 微调 的 三 个 技术 词 抽 取 模 型 和 功效 词 抽 取 模 型 的 效 
果 进 行 验证 。 对 技术 词 而 言 构建 多 组 技术 词 数据 集 , 三 个 技术 词 抽 取 模 型 分 别 从 


第 一 权利 要 求 、 摘 要 和 技术 功效 句 中 抽取 三 个 技术 词 数据 集 ， 直 接 使 用 ChatGPT 


分 别 从 第 一 权利 要 求 、 摘 要 和 技术 功效 句 中 抽取 三 个 技术 词 数据 集 ， 人工 对 每 篇 


专利 进行 解读 


标注 技术 词 , 以 上 7 组 技术 词 数 据 集 基 于 本 研究 设计 的 语义 相似 矩 


阵 评价 方法 计 


行 解读 标注 功 
方法 计算 准确 


算 准 确 率 、 召 回 率 和 Fl 值 评分 。 对 于 功效 词 构 建 多 组 功效 词 数据 


集 ， 分 别 通过 功效 词 抽取 模型 、ChatGPT 抽取 功效 词 数据 集 ， 人 工 对 每 篇 专利 进 


效 词 , 以 上 3 组 功效 词 数 据 集 基 于 本 研究 设计 的 语义 相似 矩阵 评价 
率 、 召 回 率 和 Fl 值 评分 。 此 外 ， 还 将 功效 词 抽 取 模 型 抽取 的 技术 


词 、 商 业 工具 
Fl 值 ， 以 验 j 


(Incopat) 导出 的 技术 词 与 人 工 标注 技术 词 比 较 准 确 率 、 召 回 率 和 
E 有 效 性 。 


3.2 ”数据 采集 与 处 理 


本 文 将 车 联网 V2X (Vehicle to Everything， 车 用 无 线 通 信 技 术 ) 技术 领域 的 
专利 作为 研究 基础 , 该 技术 是 3GPP(3rd Generation Partnership Project, 第 三 代 合 作 


伙伴 计划 ) 标 准 组 织 制定 5G 标准 技术 系列 的 重要 技术 方向 , 随 着 智能 驾驶 技术 的 
发 展 近 年 来 也 受到 高 度 关 注 。 

专利 训练 数据 来 自 智 意 芽 全 球 专 利 数据 库 , 检索 式 : (TAC:V2X OR 车 联网 ) 
AND (DESC:5G) AND (PC:HO4W OR HO4L OR HO4B OR HO4Q OR G08G OR 
GO6F), 合并 简单 同族 ,选择 包括 技术 功效 语 段 著录 信息 的 6278 件 中 文 专利 ( 检 
索 日 期 : 2023 年 10 月 ) 。 本 研究 的 训练 数据 集 在 同 语言 同 领域 下 超过 现 有 研究 
的 专利 数据 量 久 。 

实证 研究 的 专利 验证 数据 集 来 自 墨 丘 标准 必要 专利 〈《SEP) 数据 库 ， 用 和 车 联 
网 V2X 技术 相关 的 15 个 技术 标准 号 进行 检索 ， 得 到 167 件 中 文 专利 (2023 年 
10 月 ) 。 专 利 验 证 数据 的 技术 功效 句 采 用 从 智 意 芽 专 利 数据 库 中 导出 的 技术 功 
效 语 段 或 由 人 工 标注 。 


3.3 ”技术 词 抽取 方法 


(1) ChatGPT+ 提 示 Prompt 


ChatGPT 抽取 专利 训练 数据 的 技术 词 ， 技 术 词 从 第 一 权利 要 求 、 摘 要 、 技 术 
功效 名 三 种 语 料 中 分 别 抽取 。 调 用 ChatGPT 的 API 进行 实验 , 不 修改 默认 参数 。 
提示 〈prompt) 相当 于 一 种 [提示 语 」， 让 ChatGTP 进入 对 话 模式 。 根 据 本 
文 设计 的 实验 框架 ， 设 计 技 术 词 的 提示 prompt。 如 图 2 所 示 ， 技 术 词 抽取 任务 
的 prompt， 主 要 包括 : 设置 信 通 角色 信息 ， 定 义 技术 词 的 含义 ， 设 置 输 出 格式 


要 求 , 定义 输出 内 容 规 则 。 定义 技术 词 是 描述 专利 组 件 , 技术 名 词 的 词语 或 短语 。 


设置 系统 角色 


“messages”: [frole“:“system ,content : “你 是 一 


个 多 学 科 专 利 分 析 革 3 


定义 技术 词 
# { role“: “system”, “content”:“ 技 术 词 是 
描述 专利 组 件 , 技术 名 词 的 词语 或 短语 。 下 面 给 定 你 一 段 专利 文本 , 请 
参考 上 文 定义 , 识别 其 中 的 技术 词 。 } 


输出 格式 要 求 

# {role”: “system”, “content”:“ 以 ;为 
间隔 依次 输出 每 个 词语 ， 例 如 : “车 联网 能 力 指 示 信 息 ; 50 毫 米 波 滤波 
功 分 模块 ，V2X 连 接 指示 信息 ;阵列 图 像 传 感 器 ;MIMO 通 信和 系统 ， 基 于 
传输 (TX) 资源 池 的 拥塞 水 平 ，D2D 网 络 '“}， 


输出 内 容 规则 


{“role”: “system”, “content”: “要求 提取 


有 技术 的 朗 屋 丰 912 个 字 ， 请 太原 六 中 到 最 和 要 3-6 个 
术 短 语 即 可 ， 严 禁 自行 概括 “} 


2 技术 词 抽 取 的 prompt( 提 示 ) 流 程 
Fig2. Prompt J for 0 word extraction 
对 ChatGPT 生成 的 技术 词 , 通过 人 工 判 读 总 结 技术 词 清洗 规则 , 对 技术 词 进 
一 步 清洗 。 


(2) 基于 ChatGLM3+P-tuning 的 多 个 技术 词 抽 取 模 型 


将 专利 训练 数据 集 的 第 一 权利 要 求 、 摘 要 、 功 效 名 三 种 语 料 作 为 ChatGLM3 
模型 的 输入 ， 将 ChatGPT 预 训练 得 到 的 技术 词 数据 1、 技 术 词 数据 2、 技 术 词 数 
据 3 作为 输出 ， 采 用 P-Tuning v2 微调 方法 ， 第 一 权利 要 求 和 技术 词 数据 1 微调 
ChatGLM3 得 到 技术 词 抽 取 模 型 1， 摘 要 和 技术 词 数 据 2 微调 ChatGLM3 得 到 技 
术 词 抽取 模型 2, 功效 句 和 技术 词 数据 3 微调 ChatGLM3 得 到 技术 词 抽取 模型 3。 
P-Tuning vt 是 深度 即时 调 优 的 实现 ， 其 每 个 任务 有 0.1% 到 3% 的 可 训练 参数 ， 
大 大 降低 了 训练 时 间 存 储 成 本 和 每 个 任务 的 存储 成 本 。 

使 用 技术 词 抽 取 模 型 1,2,3 分 别 从 专利 验证 数据 的 第 一 权利 要 求 、 摘 要 、 技 
术 功 效 句 三 种 语 料 ) 中 抽取 技术 词 ， 得 到 多 组 技术 词 数据 集 。 


3.4 功效 词 抽取 方法 


(1) ChatGPT+ 提 示 Prompt 


ChatGPT 抽取 专利 训练 数据 的 功效 词 ,功效 词 从 功效 句 中 抽取 。 调 用 ChatGPT 
的 API 进行 实验 ， 不 修改 默认 参数 。 

提示 〈prompt) 相当 于 一 种 [提示 语 」， 让 ChatGTP 进入 对 话 模式 。 根 据 本 
文 设 计 的 实验 框架 ， 设 计 功 效 词 的 提示 prompt。 如 图 3 所 示 ， 功 效 词 抽取 任务 
的 prompt， 主 要 包括 : 设置 信 通 角色 信息 ， 定 义 功 效 词 的 含义 ， 设 置 输出 格式 
要 求 ， 定 义 输出 内 容 规 则 。 定 义 功效 词 是 描述 专利 应 用 场合 ， 具 备 的 优点 ， 技 术 
所 表达 功效 的 词语 或 短语 。 


设置 系统 角色 


“messages”: [{ role”: “system , “content“ : “你 是 一 


个 多 学 科 专利 分 析 者 )} ， 


定义 技术 词 
{role”: “system”, “content”: “功效 词 


世 

是 描述 专利 应 用 场合 , 具备 的 优点 ， 技术 所 表达 功效 的 词语 或 短语 ， 例 
如 以 下 示例 句 :， 本 申请 提供 的 复合 型 阻 燃 母 粒 在 保持 较 好 的 雾 度 和 较 
高 的 透 光 率 的 情况 下 ， 不 仅 具 有 好 的 阻 燃 性 能 的 同时 ， 还 具有 好 的 拉 
伸 强度 ， 力 学 性 能 优异 。 中 提取 的 功效 词 为 :“ 阻 燃 性 能 好 ， 拉 伸 强 
度 好 ;力学 性 能 优异 ”。 下 面 给 定 你 一 段 专 利文 本 , 请 参考 上 文 定义 , 识 
别 其 中 的 功效 词 。”} 


输出 格式 要 求 


# {“role”: “system ,content : “输出 格 
式 为 : “提高 过 程 可 操作 性 ， 实 现 集成 化 ， 实 现 方 式 有 益 效 果 ; 操作 
简单 ， 避 免 遭 到 损坏 ”“}， 


输出 内 容 规则 
{“role”: “system”, “content”: “要 求 提 


到 才思 长 忆 归 丰 450 他 ， 多 用 动词 加 名 词 短 语 的 形式 ， 不 要 


无 实 义 的 连词 ， 为 间隔 依次 输出 每 个 词语 ， 例如 :“ 提 高 过 程 可 
操作 性 ” 、” Se ' 实现 方式 有 益 效 果 ”、’ 操作 简单 '、’ 避免 
遭 到 损坏 '“}， 


图 3 功效 词 抽 取 的 prompt( 提 示 ) 流 程 


Fig3. Prompt process for function word extraction 


对 ChatGPT 生成 的 功效 词 , 通过 人 工 判读 总 结 功效 词 清 洗 规则 ,对 功效 词 进 
一 步 清洗 。 
(2) 基于 ChatGLM3+P-tuning 的 功效 词 抽 取 模 型 


将 专利 训练 数据 集 的 功效 句 作为 ChatGLM3 模型 的 输入 ， 将 ChatGPT 预 训 
练 得 到 的 功效 词 作为 输出 ， 采 用 P-Tuning v2 微调 方法 ， 微 调 ChatGLM3 得 到 功 
效 词 抽取 模型 。 

使 用 功效 词 抽取 模型 从 专利 验证 数据 的 技术 功效 句 中 抽取 功效 词 。 


3.5 ”专利 技术 词 、 功 效 词 抽取 效果 评估 

本 研究 基于 语义 相似 矩阵 的 方法 ， 综 合 评价 微调 模型 的 生成 效果 。 由 于 每 个 
单元 的 技术 词 和 功效 词 都 包括 多 个 词组 , 传统 对 单 句 进行 词 重 闭 计算 的 评价 指标 
难以 较 好 评价 模型 效果 。 本 研究 采用 BGE (BAAI General Embedding) 模型 计算 
各 词 的 语义 向 量 ，BGE 是 由 智 源 发 布 的 开源 中 英文 语义 向 量 模型 ， 在 中 英文 语 
义 检索 精度 与 整体 语义 表征 能 力 均 超越 了 社区 所 有 同类 模型 , 同时 保持 了 同等 参 
数量 级 模型 中 的 最 小 向 量 维度 ， 使 用 成 本 更 低 。 再 计算 向 量 间 的 Cosine 余弦 相 


TA^ 
Xi Xj 


似 度 ， 构 建 语义 相似 矩阵 ， 余 弦 相 似 度 的 计算 公式 为 一 一 二， 其 中 x; 表 示人 工 


人 ~ 


| 


标注 的 文本 (技术 词 或 功效 词 )， 表示 《〈 微 调 模型 或 ChatGPT) 抽取 的 文本 ， 


构建 的 矩阵 示意 图 如 图 4 所 示 , 纵 轴 为 人 工 标 注 的 技术 词 词组 , 横 轴 为 模型 生成 
的 技术 词 词组 ,计算 标注 词组 与 生成 词组 的 相似 性 得 出 最 终 分 数 。 


Similarity Matrix 


广播 模式 本 
单 播 模式 
0. 7 
车 联网 业务 
0.6 
分 组 数据 网 关 0.5 
0.4 
广播 组 播 业 务 中 心 
0.3 


图 4 相似 度 和 矩阵 示意 图 


Fig4. Similarity Matrix schematic 


相似 度 结 果 计 算 方 法 参考 BERT ScoreB0， 准 确 率 、 召 回 率 和 El 值 的 计算 公 
式 如 下 : 


1 内 
REgrr = 加 > maxx; 多 (1) 


XiEX 了 


1 
= > maxx 和 (2) 


X Xi EX 


Dh BERT 


,EX 


F 有 (1 +B’”)Pppr * Rpgrr 


BERT ~ 和 2 
Dh BERT pb Rpgrr 


在 公式 (3) 中 ,参数 5 取 值 越 大 ， 整 体 F1l 值 更 加 关注 准确 率 。 由 于 在 专利 
技术 词 和 功效 词 抽取 的 过 程 中 , 专利 的 关键 技术 推荐 追求 精确 性 ， 尽 量 不 挫 杂 常 
规 技术 手段 ,抽取 结果 的 正确 率 往往 比 抽取 数量 更 为 重要 ,因此 在 本 实验 中 更 加 
注重 准确 率 ， 实 验 过 程 中 6 取 值 为 2。 

此 外 ， 将 功效 词 抽取 模型 抽取 的 功效 词 结果 、 商 业 工 具 Incopat 导出 的 功效 
词 结 果 ， 分 别 相对 于 人 工 标注 的 功效 词 结果 计算 准确 率 、 召 回 率 和 Fl 值 。 
4 实证 研究 

将 车 辆 网 领域 的 6278 件 中 文 专利 作为 专利 训练 数据 集 , 用 于 ChatGPT 生成 
技术 词 和 功效 词 的 训练 数据 ， 并 对 ChatGLM3 进行 微调 。 将 选择 的 167 件 专利 
作为 验证 数据 集 ， 对 微调 ChatGLM3 后 得 到 的 三 个 技术 词 抽 取 模 型 和 功效 词 抽 
取 模 型 进行 验证 和 效果 评估 。 

4.1 实验 环境 与 参数 

本 实验 环境 配置 为 : CPU, Intel(R) Xeon(R) Gold 6338 CPU @ 2.00GHz; GPU， 
NVIDIA A100; 显存 : 80GB; Python 版 本 ，3.10.12; Cuda 版 本 ，12.2。 实 验 超 
参数 设置 如 表 1 所 示 。 选 择 多 个 训练 步 数 对 比 训练 效果 。 
表 1 实验 主要 超 参 数 设置 
Tab1. Experiment main hyperparameter settings 


(3) 


府 


_ 超 参数 中文 解 释 数值 
max_source_length 最 大 输入 序列 长 度 1024 
max_target_length 最 大 输出 序列 长 度 128 
train_batch_size 每 批 次 训练 数据 量 大 小 1 
learning_rate 学 习 率 2e-2 
max_steps 最 大 训练 步 数 2000-3000 


4.2 多 个 技术 词 抽取 模型 的 训练 损失 对 比 


训练 损失 是 评估 模型 在 训练 数据 上 的 表现 的 指标 之 一 ， 其 是 指 模 型 在 每 个 训 
练 步骤 中 预测 与 实际 标签 之 间 的 差异 的 平均 值 , 通常 希望 训练 损失 随 着 训练 步骤 
的 增加 而 逐渐 减 小 , 这 意味 着 模型 在 学 习 更 好 的 表示 并 更 好 地 匹配 标签 。 对 三 个 
从 技术 词 抽取 模型 (第 一 权利 要 求 的 技术 词 抽取 模型 1、 摘 要 的 技术 词 抽 取 模 型 
2、 技 术 功 效 句 的 技术 词 抽 取 模 型 3) 的 训练 损失 计算 并 对 比 。 如 图 5 所 示 ， 随 
着 训练 步 数 的 增加 ， 第 一 权利 要 求 的 技术 词 抽取 模型 的 训练 损失 最 低 。 


一 一 技术 抽取 模型 1 (第 一 权利 要 求 ) 
本 一 2 一 技术 抽取 模型 2 (摘要 ) 
一 0 一 技术 抽取 模型 3 (技术 功效 句 ) 


Loss 


0 2 4 6 8 10 
Epoch 


图 5 不 同 技 术 词 抽取 模型 训练 的 损失 对 比 
Fig3. Loss comparison graph for training of different technical word extraction 
model 


由 此 ， 多 个 技术 词 抽 取 模型 在 训练 损失 上 ， 第 一 权利 要 求 表现 最 佳 。 

4.3 设置 ChatGPT 生成 数据 的 清洗 规则 

通过 设置 清洗 规则 对 抽取 的 技术 词 和 功效 词 进行 过 滤 ， 去 除 噪声 。 
(1) 技术 词 清 洗 规则 


本 研究 在 该 部 分 共 使 用 6278 篇 专利 ，ChatGPT 共生 成 45774 个 技术 词 〈 包 
括 词组 或 短语 ) ， 在 清洗 之 前 ， 平 均 每 篇 专利 生成 7.29 个 技术 词 。 清 洗 掉 16728 
个 词 ， 最 后 得 到 29046 个 技术 词 ， 平 均 每 篇 专利 生成 4.62 个 技术 词 ， 被 清洗 掉 
的 为 一 些 噪音 词 ， 以 提高 最 终生 成 技术 词 的 准确 性 。 

如 表 2 所 示 ， 技 术 词 的 抽取 规则 共 12 个 ， 在 表 中 对 每 个 规则 进行 了 详细 介 
绍 和 解释， 所 有 规则 都 在 根据 ChatGPT 生成 的 技术 词 观 察 和 实验 后 确定 ， 来 删 
除 符合 规则 限定 情况 的 词语 或 短语 。 从 表 中 可 以 看 出 , 规则 4 清洗 掉 的 词 数量 最 
多 ， 为 5287 个 ， 规 则 1 和 8 都 清洗 掉 2000 多 个 词 。 例 如 : “Attention”“ 预 测 准 
确 “ 网 络 履 盖 率 高 “场地 数据 "等 不 代表 专利 技术 方案 技术 手段 的 无 意义 噪音 词 
被 清洗 。 


— 


表 2 技术 词 清洗 规则 的 示例 和 清洗 数据 


Tab2. Examples and cleaning data of cleaning rules of technical words 


序号 ”规则 介绍 规则 解释 示例 1 示例 2 数量 
1 只 有 单个 词语 ”单个 词语 通常 表示 某 种 Attention 通信 端 2288 
具体 设备 或 名 词 ， 难 以 
概括 专利 所 用 技术 
2 动词 + 名 词 + 动 ”该 规则 通常 表示 某 种 动 ” 升 级 文件 下 调制 方式 选择 941 
词 作 的 执行 ， 与 应 用 的 核 载 
心 技术 有 所 差别 


3 有 形容 词 且 长 ”该 规则 由 于 包含 形容 词 ”预测 准确 。 ”最 佳 资 源 857 


度 在 2-5 


4 动词 + 名 词 且 长 
度 在 2-5 


5 名 词 + 动词 且 长 
度 在 2-5 


6 数 词 + 名 词 


gl 包含 连词 的 词 
组 

8 包含 助词 的 词 
组 

9 包含 时 间 词 的 
词组 


10 只 有 动词 的 词 


组 

11 包含 基于 、 实 
现 、 率 高 、 率 低 
等 词 


12 包含 数据 一 词 ， 
且 长 度 在 3-7 


存在 ， 通 常 与 技术 类 词 


语 无 关 
该 规则 主要 由 动词 + 名 
词组 合 ， 且 长 度 较 短 ， 


由 
常 对 技术 描述 不 够 准 


该 规则 由 于 包含 数 词 ， 
通常 对 技术 描述 不 够 准 
确 
该 规则 由 于 连词 存在 ， 
通常 包含 两 个 主体 ， 对 
核心 技术 形容 不 够 准确 
该 规则 由 于 包含 助词 ， 
与 形容 词 规则 类 似 ， 对 
核心 技术 形容 不 够 准确 
该 规则 由 于 包含 时 间 相 
关 词 语 ， 对 技术 的 描述 
不 够 准确 
该 规则 所 有 词语 均 由 动 
词组 成 ， 难 以 准确 概括 
核心 技术 

该 规则 通常 包含 特定 非 


QC 


任务 排序 


par 


第 一 主 小 


|xl 


分 析 和 处 理 


语义 化 的 方 
式 


初始 相位 


开始 升级 


数据 传输 速 


核心 技术 词语 或 句 式 ， 
对 核心 技术 描述 不 够 准 
确 
该 规则 通常 对 数据 进行 
描述 ， 与 所 用 相关 技术 
不 符 


(2) 功效 词 清 洗 规则 


率 低 


训练 集 数据 


工作 时 长 


网 络 认证 


第 二 设备 


起 点 和 终点 


已 存储 的 通信 
参数 值 


早期 测量 结果 


备案 请 求 


网 络 覆 盖 率 高 


场地 数据 


5287 


1251 


1575 


474 


2493 


199 


813 


32 


518 


本 研究 在 该 部 分 共 使 用 6278 篇 专利 ，ChatGPT 共生 成 34791 个 功效 词 ( 包 


括 词组 或 短语 ) ， 在 清洗 之 前 ， 平 均 每 篇 专利 生成 5.54 个 功效 词 。 清 洗 掉 6021 
个 词 ， 最 后 得 到 28770 个 功效 词 ， 平 均 每 篇 专利 生成 4.58 个 功效 词 ， 被 清洗 掉 


的 为 一 些 噪音 词 或 无 意义 词 ， 以 提高 最 终生 成 功效 词 的 准确 性 。 


符合 


如 表 3 所 示 ， 功效 词 的 抽取 规则 共 6 个 , 前 两 个 规则 属于 在 句子 层面 掏 除 不 


求 的 功效 词 ， 后 四 个 规则 属于 在 短语 层面 删除 不 符合 


求 的 功效 词 。 在 表 


中 对 每 个 规则 进行 了 详细 介绍 和 解释 ， 所 有 规则 都 在 根据 ChatGPT 生成 的 功效 


词 观 紧 和 实验 后 确定 ,来 删除 符合 规则 限定 情况 的 词语 或 短语 。 


EE 最多， 为 4053 个 ， 规 则 16 清洗 掉 1811 个 词 。 例 如 :“ 该 


- 旦 . 


规则 3 清洗 挥 的 词 数量 


从 表 中 可 以 看 出 ， 


段 文本 中 的 功效 词 为 : “识别 的 功效 词 为 : “数字 编写 “模块 化 ”等 不 代表 专利 技 


术 功 效 的 无 意义 噪音 词 被 清洗 。 


表 3 功效 词 清 洗 规则 的 示例 和 清洗 数量 


Tab3. Examples and cleaning data of cleaning rules o function words 


序号 ”规则 介绍 规则 解释 


示例 1 示例 2 数量 


1 去 除 空 值 该 规则 整 篇 专利 层面 去 
除 空 值 ， 删 除 带 有 “不 
能 "、" 没 "、" 无 ”以 及 " 
功效 词 ” 的 短语 


规则 去 除 冒 号 前 的 文 


示例 文 段 中 技术 问题 以 及 114 
未 提供 明确 技术 效果 无 法 
的 功效 词 。 从 上 述 文本 上 


词 ， 请 提供 更 

多 专利 文本 。 

该 段 文本 中 识别 的 功效 词 472 
的 功效 词 为 : 

为 : 


3 长 度 在 4-15 该 规则 删除 长 度 过 短 或 
过 长 的 效果 词 


4 限定 开头 和 结 该 规则 删除 开头 为 “ 实 


尾 现 ”“ 使 用 ”， 结 尾 为 ” 
算法 ”“ 系 统 ”“ 策 略 “、 
“方法 “的 词 
5 细 粒 度 词 性 组 该 规则 删除 ntn 和 
合 v+n 词性 组 合 
6 细 粒 度 词 性 元 该 规则 短语 中 必须 包含 
素 动词 、 形 容 词 或 副词 ! 
的 一 种 


云端 系统 分 云 控 子 系统 根 4053 
析 实 现 警 示 ” 据 秒 级 导航 定 
区 域 的 现场 ”位 数据 
警示 方案 和 
关联 路 网 警 

示 方 案 
实现 端 对 端 实现 车 联网 71 
部 署 策 略 。 ISAC 系统 


发 送 SL 实现 GBR QoS 86 
PRS 的 资源 ” 流 的 建立 
数字 编号 模块 化 1811 


ChatGPT 生成 的 技术 词 和 功效 词 基 于 上 述 表 2 和 表 3 的 清洗 规则 清洗 之 后 ， 
得 到 : 技术 词 数 据 1、 技 术 词 数据 2、 技 术 词 数据 3 和 功效 词 数据 。 


4.4 技术 词 抽 取 结 果 


(1) 基于 ChatGLM3+P-tuning 的 技术 词 抽取 结 


本 文通 微调 ChatGLM3 的 技术 抽取 模型 能 


够 自动 识别 和 抽取 技术 词 。 使 用 


ChatGLM3 微调 得 到 的 三 个 技术 词 抽 取 模 型 ， 从 专利 验证 数据 集中 抽取 技术 词 ， 
示例 结果 见 下 表 4。 表 4 示 出 人 工 标注 结果 和 抽取 模型 的 技术 词 集合 。 其 中 ， 技 
术 词 抽取 模型 1 的 从 第 一 权利 要 求 中 抽取 技术 词 , 技术 词 抽取 模型 2 从 摘要 中 抽 
取 技 术 词 ， 技 术 词 抽 取 模 型 3 从 技术 功效 句 中 抽取 技术 词 。 

表 4 多 个 技术 抽取 模型 的 技术 词 抽取 结果 示例 


Tab4. Examples of extraction results of technical words of different technical extraction 


models 


ChatGLM3+P-tuning 抽取 技术 词 示 例 


人 工 标注 技术 词 抽取 模型 1 技术 词 抽取 模型 2 技术 词 抽取 模型 3 
中 央 根 密 钥 ; 第 一 私密 密 钥 ;第 三 用 户 ” 根 密 钥 分 发 ， 会话 密 ”直接 通信 服务 
UE; 向 网 络 节点 发 送 ” 设 备 ; 第 一 用 户 设备 ， 钥 获 取 ; UE 邻近 
请 求 ;， 识别 第 一 密 钥 ”网 络 节点 ; 直接 通信 ; 


的 标识 符 ; 私密 密 钥 ; 


直接 通信 


无 线 接 入 网 ;第 一 密 
钥 ; 标识 符 


接收 UE 的 身份 ;分 
组 数据 汇聚 协议 
(PDCP) 数 据 单元 ， 用 
户 数 据 的 标识 符 ; 

PC5 协议 ; 安全 链 路 ; 
发 送 PC5 协议 消息 


安全 链 路 ，PC5 协议 
消息 ; 非 互 联网 协议 
( 非 人 PP) 通信 ; 分 组 数 
据 汇聚 协议 (PDCP) 
数据 单元 


IP D2D PDCP 封装 ; 
非 D2D PDCP 封 
装 ;设备 到 设备 (D2D) 
通信 ;安全 数据 传输 


(2) 直接 使 用 ChatGPT 的 技术 词 抽 取 结 果 


直接 使 用 ChatGPT 分 别 从 专利 验 订 


F 数 据 的 第 


PC5 信 令 协议 ;用 户 


平面 传输 ; PDCP 
SDU 


技术 功效 句 中 抽取 技术 词 ， 如 下 表 5 所 示 。 


表 5 ChatGPT 的 技术 词 


] 取 结果 示例 


权利 要 求 〈 首 权 ) 、 摘 要 和 


Tab5. Examples of extraction results of technical words of ChatGPT 


ChatGPT 抽取 技术 词 示 例 


人 工 标注 


首 权 抽取 


摘要 抽取 


技术 功效 句 抽取 


一 个 或 多 个 ProSe 承 


邻近 服务 (ProSe) 进 行 


载 ， 聚 合 最 大 比特 率 
(AMBR) 参 数 ， 建 立 
ProSe 通信 


通信 的 方法 ;， 无 线 发 
射 / 接 收 单 元 
(WTRU); ProSe 承 
载 ， 聚合 最 大 比特 率 


邻近 服务 (ProSe) 通 信 
方法 和 设备 ;聚合 最 
大 比特 率 参 数 
(AMBR); 服务 质量 


(QoS); 无线 发 射 / 接 


(AMBR) 参 数 ; 网 络 实 
体 ; ProSe 通信 


收音 元 (WTRU); EPS 
承载 ;分 组 过 滤器 ; 
演进 型 分 组 系统 
(EPS) 


无 线 通 信 系 统 ， 无 线 
发 射 / 接 收 单 元 
(WTRU); 设备 到 设备 
(D2D) 通 信 ; 邻近 服务 
(ProSe) 


侧 链 路 单 播 链 路 ， 新 
的 第 一 下 层 标识 的 信 


侧 链 路 标识 ， 链 路 标 
识 符 ， 单 播 链 路 ， 下 


息 ; 链 路 标识 符 ; 办 


一 下 层 标 识 的 侧 链 路 


层 标识 ; 侧 链 路 数据 
帧 


4.5 功效 词 抽取 结果 


本 文通 微 计 
ChatGLM3 微 j 


四 
同 
E 
2 


侧 链 路 单 播 链 路 ， 侧 
链 路 标识 ; 下 层 标 识 ; 
链 路 标识 符 ， 更 新 请 
求 消息 ， 更 新 响应 消 
轧 : 侧 链 路 数据 帧 


更 新 用 于 链 路 的 标识 
符 ; 单 播 通 信 ; 标识 
符 改 变 ; eV2X 使 用 ; 
隐私 要 求 ， 第 三 方 跟 


中 


ChatGLM3 的 功效 抽取 模型 能 够 自动 识别 和 抽取 功效 词 。 使 用 


得 到 的 功效 词 抽取 模型 ， 从 专利 验证 数据 集 的 功效 句 中 抽取 功效 


词 。 直 接 使 用 ChatGPT 也 从 专利 验证 数据 集 的 功效 句 中 抽取 功效 词 。 并 提供 人 
工 解读 专利 标注 的 功效 词 结果 。 示 例 数 据 见 下 表 6。 


表 6 功效 词 抽取 结 


示例 


Tab6. Examples of extraction results of function words 


ChatGLM3+P-tuning 抽取 功效 词 示例 ChatGPT 抽取 功效 词 示例 
人 工 标注 模型 生成 内 容 人 工 标注 模型 生成 内 容 

支持 多 个 优先 级 等 级 ;邻近 服务 ; 文 持 多 个 连续 性 无 线 通 信 系统; 设备 到 

支持 多 个 应 用 优先 级 等 级 ;支持 多 设备 通信 ;邻近 服务 
种 应 用 

减少 使 用 的 带宽 ; 满足 ”减少 带宽 使 用 ;提高 侧 行 链 路 通信 提高 隐私 保护 ; 避免 被 

准确 性 和 传输 要 求 准确 性 ;满足 传输 要 第 三 方 跟踪 ; 保证 服务 
求 连续 性 ， 防 止 服 务 中 断 


4.6 技术 词 抽取 效果 评估 分 析 


(1) 微调 模型 的 抽取 效果 比较 


基于 BGE 模型 构建 语义 相似 和 矩阵 分 析 不 同 模型 抽取 技术 词 和 功效 词 的 效 

果 。 经 过 微调 ChatGLM3 得 到 的 三 个 技术 词 抽 取 模 型 分 别 从 第 一 权利 要 求 、 摘 
要 和 技术 功效 句 中 抽取 技术 词 ， 直 接 使 用 ChatGPT 也 分 布 从 第 一 权利 要 求 、 摘 
要 和 技术 功效 句 中 抽取 技术 词 , 对 比 两 种 模型 技术 词 抽取 结果 (微调 模型 的 训练 
步 数 为 3000) 和 人 工 标注 技术 词 结 果 ， 计 算 准确 率 、 召 回 率 和 Fl 值 ， 结 果 如 表 
7 所 示 。 


表 7 技术 词 抽取 效果 评估 结 


Tab7. Results of evaluation of extraction effect of technical words 


模型 训练 语 料 微调 模型 抽取 结果 ChatGPT 抽取 结果 
Precision Recall 下 1 Precision Recall 下 1 

下 个、 4 72 i| 王 求 

a ( 取 模 第 “权利 要 求 0.734 0.711 0.724 0.703 0.813 0.719 

二 二 -和 HE 

2 取 模 。 摘要 0.002 0.077 0.661 0.645 0.780 ”0.665 

pe 个、 4 性 下 总 

0 | 取 模 技术 功效 名 0.629 0.593 0.618 0.590 0.653 0.598 


平均 值 0.675 0.660 0.668 0.646 0.749 0.661 


微调 ChatGLM3 得 到 的 三 个 技术 词 抽取 模型 的 准确 率 的 计算 值 ， 都 大 于 直 
接 用 ChatGPT 抽取 技术 词 得 到 结果 的 准确 率 计 算 值 。 除 从 摘要 抽取 技术 词 的 微 
调 模型 的 Fl 值 略 小 于 ChatGPT 之 外 ， 其 他 Fl 值 都 大 于 ChatGPT。 三 个 技术 词 
抽取 模型 抽取 功效 词 的 准确 率 和 Fl 值 大 于 ChatGPT。 微 调 模型 相 较 于 ChatGPT 
呈现 准确 率 高 、 召 回 率 低 的 特点 。 其 原因 在 于 ChatGPT 的 抽取 词 数量 较 多 ， 涵 
盖 数 量 较 广 ， 因 此 召回 率 偏 高 ， 但 同时 噪声 数据 较 多 ， 准 确 率 相 对 偏 低 。 

专利 技术 词 抽 取 在 三 个 微调 模型 上 的 表现 来 看 , 从 第 一 权利 要 求 中 抽取 技术 
词 的 效果 最 佳 ，F1 值 为 0.724。 其 原因 在 于 ， 第 一 权利 要 求 描述 解决 技术 问题 的 
完整 技术 方案 ,涵盖 全 部 必要 技术 特征 ， 使 得 微调 模型 在 该 语 料 上 的 性 能 最 为 出 
色 。 技术 功效 句 语 料 更 专注 于 效果 提升 的 描述 ， 而 并 非 技 术 本 身 的 专业 描述 ， 因 
此 更 适用 于 从 技术 功效 句 中 抽取 功效 词 。 摘 要 语 料 涵盖 了 技术 背景 、 技 术 手 段 、 
效果 等 不 同类 型 的 信息 ， 概 括 更 为 笼统 ， 且 受 限 于 特定 字数 ， 也 不 一 定 包 括 完 整 


技术 方案 。 由 此 ， 从 第 一 权利 要 求 中 抽取 专利 的 解决 技术 问题 的 特点 
表现 的 效果 最 好 。 


(2) 超 参 数 对 技术 词 抽取 模型 1 的 抽取 效果 影响 


一 和 一 召回 率 一 x 一 准确 率 ”一 "一 F1 值 


数值 
[= 
局 


技术 特征 ， 


2000 2200 2400 2600 2800 3000 


步 数 


图 6 微调 训练 步 数 变化 对 技术 词 抽取 效果 的 影响 


Fig6. The influence of step number change on technical word extraction 

如 图 6 所 示 , 改变 第 一 权利 要 求 的 技术 词 抽取 模型 微调 时 的 训练 步 数 , 使 用 
不 同步 数 训练 ChatGLM3 得 到 的 技术 词 抽 取 模 型 分 别 抽取 技术 词 ， 探 索 训 练 步 
数 对 技术 词 抽 取 效 果 的 影响 ,计算 不 同步 数 下 的 技术 词 抽 取 模 型 抽取 技术 词 的 准 


确 率 、 召 回 率 和 Fl 值 ， 如 图 6 所 示 ， 对 比 发 现 : 2800 步 参数 下 的 技术 词 抽 取 模 


型 的 准确 率 最 大 ，3000 步 参 数 模 型 的 Fl 值 最 大 。 微调 ChatGLM3 时 的 训练 步 数 


并 非 越 大 越 好 ， 在 追求 高 准确 度 的 情况 下 ， 选 择 2800 步 的 训练 步 数 ， 
术 词 准 确 度 较 好 。 
4.7 功效 词 抽取 效果 评估 分 析 

如 表 8 所 示 ， 对 微调 ChatGLM3 得 到 的 功效 词 抽取 模型 抽取 的 功 


抽取 的 技 


效 词 进行 


评估 ， 并 与 ChatGPT 直接 抽取 的 功效 词 、Incopat 导出 的 每 篇 专利 的 功效 词 的 评 
估 结 果 进 行 对 比 。 计 算 功效 词 的 准确 率 、 召 回 率 和 Fl 值 ， 其 中 ， 从 准确 率 结果 


来 看 , 微调 模型 的 准确 率 最 高 , 为 0.649, 大 于 ChatGPT 抽取 结果 的 准 硬 


角 率 0.621， 


Incopat 标注 的 功效 词 仅 0.53。 本 文 基 于 知识 蒸馏 的 功效 词 抽取 模型 的 效果 优 于 


直接 用 ChatGPT 抽取 功效 词 的 效果 ， 相 比 于 商业 工具 的 功效 词 结果 ， 


在 准确 率 


上 有 明显 提升 。 此 外 ， 功 效 词 抽取 的 微调 模型 的 召回 率 、F1l 值 都 高 于 ChatGPT 
抽取 结果 和 Incopat 的 功效 词 。 其 中 ，Incopat 导出 的 功效 词 的 167 件 专 利 的 结果 


中 有 35 个 空 值 ， 去 掉 空 值 之 后 ， 得 到 的 准确 率 、 召 回 率 和 了 Il 值 分 别 


为 0.602、 


0.682 和 0.614， 也 都 低 于 本 文 微 调 的 功效 词 抽取 模型 。 由 此 ， 通 过 与 大 语言 模型 


ChatGPT 和 商业 工具 对 比 抽取 效果 之 后 订 
果 较 好 ， 达 到 理想 预期 。 
表 8 功效 词 抽取 效果 评估 结果 
Tab8. Results of evaluation of extraction effect of function words 


微调 模型 抽取 结果 ChatGPT 抽取 结果 Incopat 功效 词 


FE 明 , 本 文 所 微调 的 功效 词 抽 取 模 型 的 效 


Precision Recall 了 1 Precision Recall 下 1 Precision Recall 下 1 


0.649 0.792 0.670 0.621 0.776 0.644 0.530 0.592 0.539 


通过 以 上 对 技术 词 和 功效 词 抽取 效果 的 系统 评估 ， 发 现在 ChatGPT 生成 语 
料 基 础 上 进行 清洗 、 筷 选 ， 可 得 到 更 为 优质 的 训练 数据 ， 通 过 知识 蒸馏 操作 ， 设 
置 ChatGLM3 模型 的 微调 策略 ， 确 定 最 优 训练 步 数 ， 经 微调 后 的 ChatGLM3 模 
型 ， 从 第 一 权利 要 求 中 抽取 技术 词 具有 较 高 的 准确 率 且 效果 优 于 ChatGPT。 


5 总 结 与 展望 


本 文 研究 了 基于 大 预言 模型 知识 蒸馏 的 专利 技术 功效 词 自 动 抽 取 方 法 , 优化 
专利 技术 功效 抽取 的 效果 , 以 提升 快速 从 专利 文本 识别 和 抽取 技术 词 和 功效 词 的 
准确 性 。 系 统 设计 包括 训练 数据 处 理 、 模 型 微调 、 抽 取 效 果实 证 三 部 分 的 实验 方 
案 ， 设 置 知 识 蒸馏 操作 ， 以 ChatGPT 作为 教师 模型 ， 使 用 ChatGPT 从 第 一 权利 
要 求 、 摘 要 、 技 术 功 效 名 三 种 语 料 中 分 别 抽取 的 技术 词 ， 设 计 技 术 词 的 清洗 规则 
获取 优化 后 更 为 准确 的 技术 词 训练 数据 。 并 且 使 用 ChatGPT 从 技术 功效 句 中 抽 
取 功 效 词 ,， 并 设计 功效 词 的 清洗 规则 获取 优化 后 更 为 准确 的 功效 词 训练 数据 。 再 
以 ChatGLM3 作为 学 生 模型 ， 使 用 ChatGPT 从 第 一 权利 要 求 、 摘 要 、 技 术 功 效 
句 抽 取 的 技术 词 训练 数据 分 别 对 ChatGLM3 模型 微调 ， 得 到 三 个 技术 词 抽取 模 
型 ， 以 及 使 用 ChatGPT 从 技术 功效 句 抽取 的 功效 词 训 练 数据 对 ChatGLM3 模型 
微调 ,得 到 功效 词 抽取 模型 最 后 ,使 用 三 个 技术 词 抽取 模型 和 直接 使 用 ChatGPT 
对 专利 验证 数据 集 的 技术 词 进 行 抽取 , 采用 BGE 模型 计算 抽取 结果 的 语义 向 量 ， 
构建 语义 相似 和 矩阵， 计算 抽取 结果 的 准确 率 、 召 回 率 和 Fl 值 。 使 用 技术 功效 词 
抽取 模型 和 直接 使 用 ChatGPT 对 专利 验证 数据 集 的 功效 词 进行 抽取 ， 获 取 商 业 
工具 标注 的 专利 验证 数据 集 的 功效 词 , 同样 计算 三 种 功效 词 结果 的 准确 率 、 召 回 
率 和 Fl 值 。 

抽取 结果 评估 结果 表明 ， 三 个 技术 词 抽取 模型 相 较 于 ChatGPT 呈现 准确 率 
高 、 召 回 率 低 的 特点 ， 整 体 表现 优 于 ChatGPT。 从 技术 词 抽取 的 不 同 语 料 角度 来 
看 ， 第 一 权利 要 求 的 技术 词 抽取 模型 的 训练 损失 最 低 ， 且 在 模型 抽取 技术 词 的 效 
果 上 , 使 用 技术 词 抽取 模型 从 第 一 权利 要 求 语 中 抽取 技术 词 的 效果 最 佳 , 而 从 技 
术 功 效 句 抽取 技术 词 的 效果 最 差 。 在 微调 第 一 权利 要 求 语 料 的 ChatGLM3 模型 
时 ， 训 练 步 数 选择 2800 时 准确 率 最 大 ， 训 练 步 数 选择 3000 时 Fl 值 最 大 。 在 功 
效 词 的 抽取 效果 方面 ， 本 文通 过 微调 ChatGLM3 得 到 的 功效 词 抽取 模型 的 准确 
率 、 召 回 率 和 Fl 值 都 大 于 ， 直 接 使 用 ChatGPT 抽取 的 功效 词 以 及 商业 工具 标注 
技术 词 的 准确 率 、 召 回 率 和 Fl 值 。 

本 研究 方案 的 通过 知识 蒸馏 微调 ChatGLM3 得 到 的 技术 词 抽取 模型 和 功效 
词 抽取 模型 可 以 优化 大 语言 模型 抽取 技术 和 功效 的 效果 ， 提 升 抽 取 结 果 的 准确 
性 。 此 外 ,准确 的 技术 词 和 功效 词 生 成 ， 有 助 于 提供 更 高 质量 的 专利 分 析 ， 精 准 
抓 取 专 利 的 核心 技术 和 效果 , 快速 生成 专利 技术 创新 点 ,掌握 技术 发 展 脉络 和 趋 
势 。 

本 文 的 研究 内 容 当 前 还 局 限于 一 个 技术 领域 和 一 种 语言 , 后 续 可 将 本 文 的 模 
型 方法 扩展 到 更 多 的 技术 领域 和 专利 语言 文本 上 。 在 算 力 允 许 的 情况 下 ,可 以 进 
一 步 扩大 专利 验证 数据 集 的 数据 量 以 将 本 文 的 微调 模型 应 用 到 更 多 领域 的 专利 
文本 技术 和 功效 抽取 中 。 此 外 , 还 可 对 生成 训练 数据 的 数据 清洗 规则 进一步 优化 ， 


比如 设计 崭 除 非 核心 技术 词 的 规则 , 减少 噪声 词 ， 优 化 微调 模型 ,提升 抽取 结果 
的 效果 。 
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